Search CORE

3 research outputs found

Metodología de clasificación de datos desbalanceados basado en métodos de submuestreo

Author: Hoyos Osorio Jhoan Keider
Publication venue: Maestría en Ingeniería Eléctrica
Publication date: 01/01/2019
Field of study

En este trabajo se presenta la construcción metodológica para la clasificación de datos desbalanceados, a partir del análisis comparativo entre técnicas de submuestreo, y tiene como aporte fundamental el desarrollo de una nueva estrategia de submuestreo y la clara identificación de las condiciones de aplicación de cada una de las técnicas. En particular, se consideran las técnicas de submuestreo basado en agrupamiento, un nuevo método de submuestreo basado en teoría de la información y una adaptación de los métodos propuesto para desarrollar un ensamble de clasificadores. Las pruebas de desempeño se orientan a la precisión del sistema en la etapa de clasificación y a la capacidad de cada método para seleccionar las muestras más representativas. Se realizan pruebas sobre 44 bases de datos desbalanceadas de pequeña escala del repositorio de datos KEEL, y tres bases de datos de gran escala orientas a la predicción de cáncer de mama y de homología de proteínas y la detección automática de displasias corticales. Los resultados obtenidos reflejan que el submuestreo basado en teoría de la información es el método de submuestreo que mejor preserva la estructura de la clase mayoritaria, reduciendo la pérdida de información en el proceso de eliminación de muestras. Además, este método presenta una mejora sustancial cuando es adaptado para generar la combinación de diferentes clasificadores aumentando notablemente la capacidad del sistema para generalizar el comportamiento de ambas clases lo cual se puede evidenciar en los resultados de clasificación

Repositorio academico de la Universidad Tecnológica de Pereira

DiME: Maximizing Mutual Information by a Difference of Matrix-Based Entropies

Author: Brockmeier Austin J.
Giraldo Luis Gonzalo Sanchez
Osorio Jhoan Keider Hoyos
Skean Oscar
Publication venue
Publication date: 26/05/2023
Field of study

We introduce an information-theoretic quantity with similar properties to mutual information that can be estimated from data without making explicit assumptions on the underlying distribution. This quantity is based on a recently proposed matrix-based entropy that uses the eigenvalues of a normalized Gram matrix to compute an estimate of the eigenvalues of an uncentered covariance operator in a reproducing kernel Hilbert space. We show that a difference of matrix-based entropies (DiME) is well suited for problems involving the maximization of mutual information between random variables. While many methods for such tasks can lead to trivial solutions, DiME naturally penalizes such outcomes. We compare DiME to several baseline estimators of mutual information on a toy Gaussian dataset. We provide examples of use cases for DiME, such as latent factor disentanglement and a multiview representation learning problem where DiME is used to learn a shared representation among views with high mutual information

arXiv.org e-Print Archive

The Representation Jensen-R\'enyi Divergence

Author: Brockmeier Austin J.
Giraldo Luis Gonzalo Sanchez
Osorio Jhoan Keider Hoyos
Skean Oscar
Publication venue
Publication date: 01/06/2022
Field of study

We introduce a divergence measure between data distributions based on operators in reproducing kernel Hilbert spaces defined by kernels. The empirical estimator of the divergence is computed using the eigenvalues of positive definite Gram matrices that are obtained by evaluating the kernel over pairs of data points. The new measure shares similar properties to Jensen-Shannon divergence. Convergence of the proposed estimators follows from concentration results based on the difference between the ordered spectrum of the Gram matrices and the integral operators associated with the population quantities. The proposed measure of divergence avoids the estimation of the probability distribution underlying the data. Numerical experiments involving comparing distributions and applications to sampling unbalanced data for classification show that the proposed divergence can achieve state of the art results.Comment: We added acknowledgment

arXiv.org e-Print Archive